Échantillonnage adaptatif de jeux de données déséquilibrés pour les forêts aléatoires

نویسندگان

  • Julien Thomas
  • Pierre-Emmanuel Jouve
  • Elie Prudhomme
چکیده

Introduction Les jeux de données déséquilibrés constituent un problème important de l’apprentissage supervisé. Or la plupart des modèles sont conçus pour des données équilibrées. Leur utilisation sur des données déséquilibrées conduit souvent à une mauvaise prédiction de la classe minoritaire. Pourtant, cette situation se retrouve régulièrement dans la pratique (Détection de pannes (Pazzani et al., 1994), textmining, aide aux diagnostics médicaux...). Ces applications ont besoin de disposer de méthodes capables de prédire la classe minoritaire avec des performances en adéquation avec les attentes de l’utilisateur. L’évantail des solutions existantes vont de l’échantillonnage (Japkowicz, 2000; Chawla et al., 2002), à la construction d’un modèle de prédiction spécifique à la classe d’intérêt, en passant par l’utilisation de matrices de coût (Pazzani et al., 1994; Kubat et al., 1998).

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Un nouvel algorithme de forêts aléatoires d'arbres obliques particulièrement adapté à la classification de données en grandes dimensions

Résumé. L’algorithme des forêts aléatoires proposé par Breiman permet d’obtenir de bons résultats en fouille de données comparativement à de nombreuses approches. Cependant, en n’utilisant qu’un seul attribut parmi un sous-ensemble d’attributs tiré aléatoirement pour séparer les individus à chaque niveau de l’arbre, cet algorithme perd de l’information. Ceci est particulièrement pénalisant avec...

متن کامل

Sous-échantillonnage topographique par apprentissage semi-supervisé

Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au ...

متن کامل

Prévision de trajectoires de cyclones à l'aide de forêts aléatoires avec arbres de régression

Résumé. Nous présentons une étude pour la prédiction des trajectoires de cyclones dans l’océan Atlantique Nord à partir de données issues d’images satellites. On y extrait des mesures de vitesses de vent, de vorticité, d’humidité (base JRA-25) et des mesures de latitude, de longitude et de vitesse de vent instantanée des cyclones toutes les 6 heures (base IBTrACS). Les modèles de référence à ce...

متن کامل

Détection de clefs pour l'interconnexion et le nettoyage de jeux de données

Résumé : Cet article propose une méthode d’analyse de jeux de données du Web publiés en RDF basée sur les dépendances de clefs. Ce type particulier de dépendances fonctionnelles, largement étudié dans la théorie des bases de données, permet d’évaluer si un ensemble de propriétés constitue une clef pour l’ensemble de données considéré. Si c’est le cas, il n’y aura alors pas deux instances posséd...

متن کامل

Risk bounds for purely uniformly random forests

Random forests, introduced by Leo Breiman in 2001, are a very effective statistical method. The complex mechanism of the method makes theoretical analysis difficult. Therefore, a simplified version of random forests, called purely random forests, which can be theoretically handled more easily, has been considered. In this paper we introduce a variant of this kind of random forests, that we call...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008